Application of Mel Cepstral Representation of Voice Recordings for Diagnosing Vocal Disorders

نویسندگان

  • Jacek GRYGIEL
  • Paweł STRUMIŁŁO
  • Ewa NIEBUDEK-BOGUSZ
چکیده

The aim of this study was to assess the applicability of Mel Frequency Cepstral Coefficients (MFCC) of voice samples in diagnosing vocal nodules and polyps. Patients’ voice samples were analysed acoustically with the measurement of MFCC and values of the first three formants. Classification of mel coefficients was performed by applying the Sammon Mapping and Support Vector Machines. For the tests conducted on 95 patients, voice disorders were detected with accuracy reaching approx. 80%. Abstract. Celem niniejszej pracy była ocena możliwości zastosowania analizy tzw. współczynników cepstralnych (ang. Mel Cepstral Coefficients (MFCC)) dla próbek rejestrowanego głosu pacjentów we wspomaganiu diagnozy guzów i polipów. Rejestracje mowy pacjentów poddane zostały analizie akustycznej, w której zastosowano parametry MFCC oraz wartości trzech pierwszych formantów. Do klasyfikacji współczynników cepstralnych zastosowano odwzorowanie Sammona oraz tzw. Maszynę Wektorów Nośnych. W testach wykonanych dla 95 rejestracji mowy pacjentów, zaburzenia głosu zostały wykryte z ok. 80% dokładnością. (Zastosowanie reprezentacji Mel Cepstralnej sygnału mowy do badania zaburzeń głosu). Celem niniejszej pracy była ocena możliwości zastosowania analizy tzw. współczynników cepstralnych (ang. Mel Cepstral Coefficients (MFCC)) dla próbek rejestrowanego głosu pacjentów we wspomaganiu diagnozy guzów i polipów. Rejestracje mowy pacjentów poddane zostały analizie akustycznej, w której zastosowano parametry MFCC oraz wartości trzech pierwszych formantów. Do klasyfikacji współczynników cepstralnych zastosowano odwzorowanie Sammona oraz tzw. Maszynę Wektorów Nośnych. W testach wykonanych dla 95 rejestracji mowy pacjentów, zaburzenia głosu zostały wykryte z ok. 80% dokładnością. (Zastosowanie reprezentacji Mel Cepstralnej sygnału mowy do badania zaburzeń głosu).

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

[Nonlinear acoustic analysis in the evaluation of occupational voice disorders].

BACKGROUND Over recent years numerous papers have stressed that production of voice is subjected to the nonlinear processes, which cause aperiodic vibrations of vocal folds. These vibrations cannot always be characterized by means of conventional acoustic parameters, such as measurements of frequency and amplitude perturbations. Thus, special attention has recently been paid to nonlinear acoust...

متن کامل

Voice-based Age and Gender Recognition using Training Generative Sparse Model

Abstract: Gender recognition and age detection are important problems in telephone speech processing to investigate the identity of an individual using voice characteristics. In this paper a new gender and age recognition system is introduced based on generative incoherent models learned using sparse non-negative matrix factorization and atom correction post-processing method. Similar to genera...

متن کامل

The Study of Vocal Function in Patients With Early Laryngeal Carcinoma After Transoral Laser Microsurgery

Objective Today transoral laser microsurgery is considered as one of the first options to control early laryngeal cancer, and voice disorder is one of the inevitable complications of this therapeutic component. This study aimed to compare the vocal function in patients with early-stage laryngeal cancer following laser surgery with healthy individuals with normal voice quality using acoustic ana...

متن کامل

Long term measures of the resonating vocal tract: establishing correlation and complementarity

Underlying much of the research in forensic voice comparison (FVC) is the assumption that the vocal tract is a useful biometric for speaker discrimination and that individual differences in its anatomy and physiology will be reflected as speech resonances that are recoverable from its output. There are many ways in which the output of the tract may be observed and analysed, different methods de...

متن کامل

Performance Comparison of Neural Networks and GMM for Vocal/Nonvocal segmentation for Singer Identification

Vocal and nonvocal segmentation is an important task in singing voice signal processing. Before identifying the singer it is necessary to locate the singer’s voice in a song. Maximum of the songs start with a piece of instrumental accompaniment known as ‘prelude’ in musical terms after which the singing voice comes into play. Therefore, it is necessary to detect the vocal region in the song in ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012